应用于网上图书领域的Deep Web实体识别
建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中一个至关重要的环节,它的目的就是去掉结果中的重复数据,即降低数据的冗余度。本文主要对Deep Web数据集成中的实体识别进行了深入的研究。
针对中文图书领域Deep Web实体识别,通过分析各个网站对图书信息的描述形式,发现不同的网上书店对同一本书的描述通常存在着差别,而对不同图书的描述又可能非常相近。由于上述情况的存在,本文提出了基于改进Jaccard系数和领域本体的Deep Web实体识别方法。在图书文本属性中,直接应用Jaccard系数进行计算,不能解决在文本属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别的过程中对Jaccard系数进行了两点改进,一是为文本分词后的单词增加权重系数,二是字符串匹配时的包含关系用系数m来确定。利用改进Jaccard系数法计算文本相似度,能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配,来解决作者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的重要程度不同,所以本文利用层次分析法获得各个属性的权重,然后加权相加计算实体相似度,从而整合重复实体。实验表明,该方法对中文图书领域的Deep Web实体识别具有较高的准确率。
- 作者:
- 李英华
- 学位授予单位:
- 河北大学
- 专业名称:
- 计算机软件与理论
- 授予学位:
- 硕士
- 学位年度:
- 2010年
- 导师姓名:
- 王煜;袁方
- 中图分类号:
- TP311.13;TP391.43
- 关键词:
- 网上图书;Deep Web实体识别;Jaccard系数;文本相似度;图书属性匹配
- Deep Web;Entity identification;Jaccard coefficients;Domain ontology;AHP